SD-GRPO: Descomposición verificable de segmentos en VL larga SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas. 2026-06-10 · 2 min